Gh 2179 transformer pooling #2180

kishaloyhalder · 2021-03-23T14:59:08Z

Added 'mean', 'max' pooling strategy for TransformerDocumentEmbeddings class.

kishaloyhalder · 2021-03-24T12:47:04Z

Verified the correctness with sentence-transformers' implementation of the same.

from flair.embeddings.document import TransformerDocumentEmbeddings
from flair.data import Sentence
from sentence_transformers import SentenceTransformer, models
import torch

text = "Good Morning"
document_embeddings = TransformerDocumentEmbeddings(model="bert-base-uncased", pooling="mean")

# option 1
sentence = Sentence(text, use_tokenizer=False)
document_embeddings.embed(sentence)
embedding_1 = sentence.get_embedding()
print(embedding_1.shape)
print(embedding_1[:20])

# option 2
document_embeddings.pooling = 'max'
sentence = Sentence(text, use_tokenizer=False)
document_embeddings.embed(sentence)
embedding_2 = sentence.get_embedding()
print(embedding_2.shape)
print(embedding_2[:20])

# option 3
document_embeddings.pooling = 'cls'
sentence = Sentence(text, use_tokenizer=False)
document_embeddings.embed(sentence)
embedding_3 = sentence.get_embedding()
print(embedding_3.shape)
print(embedding_3[:20])


word_embedding_model = models.Transformer('bert-base-uncased', max_seq_length=512)
pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())

model = SentenceTransformer(modules=[word_embedding_model, pooling_model])

# option 1'
embedding_11 = model.encode(text, convert_to_tensor=True)
print(embedding_11.shape)
print(embedding_11[:20])

# option 2'
pooling_model.pooling_mode_cls_token = False
pooling_model.pooling_mode_mean_tokens = False
pooling_model.pooling_mode_max_tokens = True
embedding_21 = model.encode(text, convert_to_tensor=True)
print(embedding_21.shape)
print(embedding_21[:20])

# option 3'
pooling_model.pooling_mode_cls_token = True
pooling_model.pooling_mode_mean_tokens = False
pooling_model.pooling_mode_max_tokens = False
embedding_31 = model.encode(text, convert_to_tensor=True)
print(embedding_31.shape)
print(embedding_31[:20])

assert torch.all(torch.eq(embedding_1, embedding_11))
assert torch.all(torch.eq(embedding_2, embedding_21))
assert torch.all(torch.eq(embedding_3, embedding_31))

flair/embeddings/document.py

alanakbik · 2021-03-24T20:12:15Z

@kishaloyhalder thanks a lot for adding this!

kishaloyhalder added 3 commits March 23, 2021 15:48

Added mean, max pooling strategy

32dc713

Added mean, max pooling strategy, merged with master

0863c13

Fixed a bug in indexing the correct tokens for pooling

5413890

alanakbik requested changes Mar 24, 2021

View reviewed changes

flair/embeddings/document.py Outdated Show resolved Hide resolved

flair/embeddings/document.py Outdated Show resolved Hide resolved

kishaloyhalder added 2 commits March 24, 2021 15:35

Addressed review comments

bafe196

Fixed old model deserialization logic for 'pooling' parameter

a410cb1

kishaloyhalder requested a review from alanakbik March 24, 2021 16:28

alanakbik approved these changes Mar 24, 2021

View reviewed changes

alanakbik merged commit 4b1bf17 into master Mar 24, 2021

alanakbik deleted the GH-2179-transformer-ppoling branch March 24, 2021 20:12

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Gh 2179 transformer pooling #2180

Gh 2179 transformer pooling #2180

kishaloyhalder commented Mar 23, 2021

kishaloyhalder commented Mar 24, 2021

alanakbik commented Mar 24, 2021

Gh 2179 transformer pooling #2180

Gh 2179 transformer pooling #2180

Conversation

kishaloyhalder commented Mar 23, 2021

kishaloyhalder commented Mar 24, 2021

alanakbik commented Mar 24, 2021